免费版也能用!ChatGPT 语音对话全面开放,苹果的 Siri 危矣?
争论了 5 天,OpenAI 这场「闹剧」终于在昨日下午 OpenAI 官宣 Sam Altman 回归继续担任 CEO 后暂时告一段落。
而此前似乎是为了分散外界的注意力,OpenAI 悄悄地在官方 X 账号上推出了一项颇为重磅的功能——ChatGPT 语音功能现在已经向所有用户免费开放。在手机上下载该应用程序,然后点击耳机图标即可开始对话。
彼时还未回归 OpenAI 继续写代码的总裁兼联合创始人 Greg Brockman 在第一时间进行了转发分享,并附上“ChatGPT Voice 面向所有免费用户推出。尝试一下——彻底改变 ChatGPT 体验。”
随着这款新功能的普及,不少爱好者立即上手进行了体验,还惊喜的发现倘若在最新的 iPhone 15 Pro 系列上使用它,甚至可以直接替代 Siri,让 ChatGPT 成为手机上更健谈的语音聊天助手。
ChatGPT 语音功能全面开放使用!
事实上,早在今年 9 月,OpenAI 便向外界介绍了 ChatGPT 语音功能:你只需要点击按钮并说出自己想问的问题,ChatGPT 将其转换为文本并反馈给大模型,获取答案后再将其转换回语音,然后大声朗读答案。
这好比现在直接与我们手机上的 Siri、小爱同学等语音助手交谈一样。
只是有所不同的是,ChatGPT 所带来的语音功能是由一个新文本到语音模型提供支持,该模型能够仅通过文本和几秒钟的语音样本生成“类似人类的音频”,OpenAI 此前表示,他们与几位知名的配音演员合作,创作了 5 种不同的声音。与此同时,OpenAI 还用了其开源语音识别系统 Whisper 将口头表达转录为文本。
就在几周前,OpenAI 将此功能向 ChatGPT Plus 和 Enterprise 订阅者推出。现如今,所有用户都可以直接使用它。
不过,需要注意的是,该功能只能在移动应用程序中可用,ChatGPT 网站上还无法使用。
初尝 ChatGPT 的语音功能
要想尝试一下语音聊天,首先要下载适用于 iOS/iPadOS 或者 Android 的 ChatGPT App。
对此,外媒 ZDNET 给出了一份指南,即启动 ChatGPT App 后,点击“耳机🎧”图标。如果是第一次体验,你需要在 Jennifer、Ember、Cove、Sky 或 Breeze 5 种声音中选择一种。
接下来,说出你的问题或请求。作为回应,ChatGPT 会以语音回答。然后,你可以继续以这种方式聊天以进行对话。点击 X 结束语音聊天,回应将以文本形式出现在聊天屏幕上,这样就可以正常使用了。
或许是为了自嘲近日的风波,OpenAI 官方在 X 平台上展示的示例就是,有人问 ChatGPT:
对于团队来说,这是一个漫长的夜晚,我们很饿。我应该为 778 人订购多少个 16 英寸的披萨。
要知道,此前 Sam Altman 被罢免之后,该公司 778 名员工中有超过 96% 的人威胁称,如果两位联合创始人不复职,他们将辞职。
没想到,这会被用在 ChatGPT 推出的语音功能示例中。对此,ChatGPT 的回答是:
假设每人平均吃三片,每个 16 英寸的披萨大约提供 12 片,那么你需要订购大约 195 个披萨。
如何把 ChatGPT 在 iPhone 中一键唤醒,宛如 Siri
这是和使用文本输入完全不一样的体验方式。基于此,还有网友直接把这一功能结合上最新的 iPhone 15 Pro 系列来用,惊叹地发现:Siri 的命运或至此就要打上一个大大的问号了。
对于 iPhone 15 Pro 系列,苹果于今年秋季发布会上官宣放弃了近 20 年的静音拨片设计,而是使用了“动作按钮”(Action button)作为替代,其实也就是虚拟键。在此基础上,使用者可以通过全新的操作按钮键快速启动相机、手电筒、激活语音备忘录、焦点模式、翻译和放大镜等辅助功能。
当然,你也可以将这个按钮自定义设置为唤醒 ChatGPT App 的按钮,而无须再使用 Siri。
要想这样做,你只需要打开 iOS 设置中的“操作按钮”菜单,然后滑到末尾附近的“快捷方式”选项,点击蓝色按钮“选择一个快捷方式”。当侧面按钮的视觉效果出现时,滑动到快捷方式选项,单击“选择功能”,然后选择 ChatGPT 应用程序即可。
配置完成后,你可以按住侧边的操作按钮开始 ChatGPT 语音会话,直接对ChatGPT 说出你的问题,并听取其回答——就像 Siri 一样,但聪明得多。
不过,Siri 和 ChatGPT 仍然存在显著差异。例如,Siri 与 iPhone 深度集成,使其能够执行设置计时器和控制手机音量等操作。
但在涉及一般知识问题时,ChatGPT 的知识深度和更具对话性的风格可以说更好——只要你意识到它产生的答案也有可能是错误的,有辨别的能力就行。
对于最新语音功能的全面开放,有不少付费用户抱怨, ChatGPT Plus 的用户权益好像并不比普通用户多多少,也有开发者好奇直言:
那么,这里的盈利模式是什么?要实现此功能,需要运行:语音转文本、LLM 本身和文本转语音。我们一直听说公司运行其 LLM 服务需要花费多少钱......
还有用户希望 OpenAI 能够进一步改进,「我不想要通用的声音,我希望能够克隆我自己的声音并将其播放给我听。如果 ChatGPT 要开始为我工作,那么它需要能够冒充我」。
同时,由于技术领域的隐私问题,还有用户质疑这一修改的安全影响。苹果公司是否会通过更新来应对用户偏好的这种转变,或者 ChatGPT 是否会成为 iPhone 用户的默认选择?
只能说,随着 ChatGPT 语音功能的全面开放,巨大的变化即将到来,一些 AI 语音助手也需要做好充足的准备才能不被 AI 大模型的洪流淹没。
参考:
https://www.zdnet.com/article/bing-chat-now-goes-by-copilot-and-feels-a-lot-more-like-chatgpt/
https://techcrunch.com/2023/11/22/forget-siri-turn-your-iphones-action-button-into-a-chatgpt-voice-assistant-instead/
推荐阅读:
▶荣耀董事长换帅,辟谣“借壳上市”;传拼多多入局大模型,年薪百万招兵买马;ChatGPT Voice语音聊天免费开放| 极客头条
▶转行做 IT 多数在 30 岁+、43%程序员每天一半时间不在编码,最新开发者生态系统现状报告发布!
▶从 12 岁开始,他用 25 年时间掌握了 30 门编程语言……